Self-supervised learning via masked prediction pre-training (MPPT) has shown impressive performance on a range of speech-processing tasks. This paper proposes a method to bias self-supervised learning towards a specific task. The core idea is to slightly finetune the model that is used to obtain the target sequence. This leads to better performance and a substantial increase in training speed. Furthermore, this paper proposes a variant of MPPT that allows low-footprint streaming models to be trained effectively by computing the MPPT loss on masked and unmasked frames. These approaches are evaluated for automatic speech recognition on the Librispeech corpus, where 100 hours of data served as the labelled data and 860 hours as the unlabelled data. The biased training outperforms the unbiased training by 15.5% after 250k updates and 23.8% after 100k updates on test-other. For the streaming models, the pre-training approach yields a reduction in word error rate of 44.1%.
translated by 谷歌翻译
在图像中检测人对象相互作用(HOI)是迈向高级视觉理解的重要一步。现有工作通常会阐明改善人类和对象检测或互动识别。但是,由于数据集的局限性,这些方法倾向于在检测到的对象的频繁相互作用上非常适合,但在很大程度上忽略了稀有的对象,这被称为本文中的对象偏置问题。在这项工作中,我们第一次从两个方面揭示了问题:不平衡的交互分布和偏见的模型学习。为了克服对象偏置问题,我们提出了一种新颖的插件插件,以对象的偏差记忆(ODM)方法来重新平衡检测到的对象下的交互分布。拟议的ODM配备了精心设计的读写策略,可以更频繁地对训练进行稀有的互动实例,从而减轻不平衡交互分布引起的对象偏差。我们将此方法应用于三个高级基线,并在HICO-DET和HOI-COCO数据集上进行实验。为了定量研究对象偏置问题,我们主张一项新协议来评估模型性能。正如实验结果所证明的那样,我们的方法对基准的一致和显着改善,尤其是在每个物体下方的罕见相互作用上。此外,在评估常规标准设置时,我们的方法在两个基准测试中实现了新的最新方法。
translated by 谷歌翻译
人类对象的相互作用(HOI)检测在场景理解的背景下受到了很大的关注。尽管基准上的进步越来越高,但我们意识到现有方法通常在遥远的相互作用上表现不佳,其中主要原因是两个方面:1)遥远的相互作用本质上比亲密的相互作用更难以识别。一个自然的场景通常涉及多个人类和具有复杂空间关系的物体,从而使远距离人对象的互动识别很大程度上受到复杂的视觉背景的影响。 2)基准数据集中的远处相互作用不足导致这些实例的合适。为了解决这些问题,在本文中,我们提出了一种新型的两阶段方法,用于更好地处理HOI检测中的遥远相互作用。我们方法中的一个必不可少的组成部分是一个新颖的近距离注意模块。它可以在人类和物体之间进行信息传播,从而熟练考虑空间距离。此外,我们设计了一种新颖的远距离感知损失函数,该功能使模型更加专注于遥远而罕见的相互作用。我们对两个具有挑战性的数据集进行了广泛的实验-HICO-DET和V-COCO。结果表明,所提出的方法可以通过很大的利润来超越现有方法,从而导致新的最新性能。
translated by 谷歌翻译
基于知识的视觉问题答案(VQA)希望模型依靠外部知识来进行强大的答案预测。尽管这很重要,但本文发现了阻碍当前最新方法发展的几个主要因素。一方面,利用显式知识的方法将知识视为经过精心训练的VQA模型的补充。尽管它们有效,但这些方法通常会遭受噪声纳入和错误传播的影响。另一方面,与隐式知识有关的是,基于知识的VQA的多模式隐式知识仍然在很大程度上尚未探索。这项工作为基于知识的VQA提供了统一的端到端检索器框架。特别是,我们阐明了从视觉语言预训练模型中的多模式隐式知识,以挖掘其在知识推理中的潜力。至于检索操作在显式知识上遇到的噪音问题,我们设计了一种新的方案,以创建伪标签以进行有效的知识监督。该方案不仅能够为知识检索提供指导,而且还可以将这些实例带入问题回答的可能性。为了验证所提出的方法的有效性,我们在基准数据集上进行了广泛的实验。实验结果表明,我们的方法以明显的边距优于现有基线。除了报道的数字外,本文还通过一些经验发现,进一步催生了对未来研究的知识利用的一些见解。
translated by 谷歌翻译
虽然注释大量的数据以满足复杂的学习模型,但对于许多现实世界中的应用程序可能会过于良好。主动学习(AL)和半监督学习(SSL)是两个有效但经常被隔离的方法,可以减轻渴望数据的问题。最近的一些研究探索了将AL和SSL相结合以更好地探测未标记数据的潜力。但是,几乎所有这些当代的SSL-AL作品都采用了简单的组合策略,忽略了SSL和AL的固有关系。此外,在处理大规模,高维数据集时,其他方法则遭受高计算成本。通过标记数据的行业实践的激励,我们提出了一种基于创新的基于不一致的虚拟对抗性积极学习(理想)算法,以进一步研究SSL-AL的潜在优势,并实现Al和SSL的相互增强,即SSL,即SSL宣传标签信息,以使标签信息无标记的样本信息并为Al提供平滑的嵌入,而AL排除了具有不一致的预测和相当不确定性的样品。我们通过不同粒度的增强策略(包括细粒度的连续扰动探索和粗粒数据转换)来估计未标记的样品的不一致。在文本和图像域中,广泛的实验验证了所提出的算法的有效性,并将其与最先进的基线进行了比较。两项实际案例研究可视化应用和部署所提出的数据采样算法的实际工业价值。
translated by 谷歌翻译
由于滥用了深层,检测伪造视频是非常可取的。现有的检测方法有助于探索DeepFake视频中的特定工件,并且非常适合某些数据。但是,这些人工制品的不断增长的技术一直在挑战传统的深泡探测器的鲁棒性。结果,这些方法的普遍性的发展已达到阻塞。为了解决这个问题,鉴于经验结果是,深层视频中经常在声音和面部背后的身份不匹配,并且声音和面孔在某种程度上具有同质性,在本文中,我们建议从未开发的语音中执行深层检测 - 面对匹配视图。为此,设计了一种语音匹配方法来测量这两个方法的匹配度。然而,对特定的深泡数据集进行培训使模型过于拟合深层算法的某些特征。相反,我们提倡一种迅速适应未开发的伪造方法的方法,然后进行预训练,然后进行微调范式。具体而言,我们首先在通用音频视频数据集上预先培训该模型,然后在下游深板数据上进行微调。我们对三个广泛利用的DeepFake数据集进行了广泛的实验-DFDC,Fakeavceleb和DeepFaketimit。与其他最先进的竞争对手相比,我们的方法获得了显着的性能增长。还值得注意的是,我们的方法在有限的DeepFake数据上进行了微调时已经取得了竞争性结果。
translated by 谷歌翻译
使多模式数据中的每种模式贡献贡献至关重要,对于学习多功能多模式模型至关重要。但是,现有的方法通常在模型训练过程中由一种或几种模式主导,从而导致次优性能。在本文中,我们将此问题称为模态偏见,并试图在多模式分类的背景下进行系统,全面地进行研究。在进行了几个经验分析之后,我们认识到一种模式会影响模型预测,因为这种模式与实例标签具有虚假的相关性。为了主要促进对模式偏差问题的评估,我们分别构建了两个数据集,以根据分布式(OOD)协议一致的彩色数字识别和视频动作识别任务。在视觉问题回答任务中与基准合作,我们经验证明了这些OOD数据集中现有方法的性能退化是合理的,这是证明模式偏见学习合理的证据。此外,为了克服这个问题,我们提出了一种插件损失功能方法,从而根据训练集统计数据可以自适应地学习每个标签的特征空间。此后,我们将此方法应用于八个基准,以测试其有效性。从四个数据集的结果有关上述三个任务的结果,我们的方法与基准相比产生了显着的性能改进,这表明其在减少模态偏差问题上的优势。
translated by 谷歌翻译
注意机制主导着深层模型的解释性。它们在输入上产生概率分布,该输入被广泛认为是特征对重要指标。但是,在本文中,我们发现注意力解释中的一个关键局限性:识别特征影响的极性的弱点。这将是一种误导性 - 注意力较高的特征可能不会忠实地促进模型预测;相反,它们可以施加抑制作用。有了这一发现,我们反思了当前基于注意力的技术的解释性,例如Attentio $ \ odot $梯度和基于LRP的注意解释。我们首先提出了一种可操作的诊断方法(此后忠实违规测试),以衡量解释权重与影响极性之间的一致性。通过广泛的实验,我们表明大多数经过测试的解释方法出乎意料地受到违反忠诚问题的阻碍,尤其是原始关注。对影响违规问题的因素的经验分析进一步为采用注意模型中采用解释方法提供了有用的观察。
translated by 谷歌翻译
视觉问题的视觉关注在视觉问题上应答(VQA)目标在定位有关答案预测的右图像区域,提供强大的技术来促进多模态理解。然而,最近的研究指出,来自视觉关注的突出显示的图像区域通常与给定的问题和答案无关,导致模型混淆正确的视觉推理。为了解决这个问题,现有方法主要是为了对准人类关注的视觉注意力。尽管如此,收集这种人类数据是费力且昂贵的,使其在数据集中调整良好开发的模型。为了解决这个问题,在本文中,我们设计了一种新的视觉关注正规化方法,即attreg,以便在VQA中更好地视觉接地。具体而言,attraT首先识别了由骨干模型出乎意料地忽略(即,分配低注意重量)的问题所必需的图像区域。然后,利用掩模引导的学习方案来规范视觉注意力,以便更多地关注这些忽略的关键区域。所提出的方法是非常灵活的,模型不可知,可以集成到基于大多数基于视觉关注的VQA模型中,并且不需要人类注意监督。已经进行了三个基准数据集,即VQA-CP V2,VQA-CP V1和VQA V2的广泛实验,以评估attreg的有效性。作为副产品,将Attreg纳入强基线LMH时,我们的方法可以实现新的最先进的准确性为60.00%,在VQA-CP V2基准数据集上绝对性能增益为7.01%。 。
translated by 谷歌翻译
最近的研究表明,许多发达的视觉问题的答案(VQA)模型受到先前问题的严重影响,这是指基于文本问题和答案之间的共同发生模式来提出预测而不是推理视觉内容。为了解决它,大多数现有方法都侧重于增强视觉特征学习,以减少对VQA模型决策的这种肤浅的快捷方式影响。然而,有限的努力已经致力于为其固有原因提供明确的解释。因此,缺乏以有目的的方式向前迈出前进的良好指导,导致模型构建困惑在克服这种非琐碎问题时。在本文中,我们建议从类 - 不平衡视图中解释VQA中的语言。具体地,我们设计了一种新颖的解释方案,从而在晚期训练阶段明显展出了误差频繁和稀疏答案的丢失。它明确揭示了为什么VQA模型倾向于产生频繁但是明显的错误答案,给出的给定问题,其正确答案在训练集中稀疏。基于此观察,我们进一步开发了一种新的损失重新缩放方法,以基于计算最终损失的训练数据统计来为每个答案分配不同权重。我们将我们的方法应用于三个基线,两个VQA-CP基准数据集的实验结果明显证明了其有效性。此外,我们还可以证明在其他计算机视觉任务上的类别不平衡解释方案的有效性,例如面部识别和图像分类。
translated by 谷歌翻译